Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct
نویسندگان
چکیده
Résumé : La résolution de problèmes à états et actions continus par l’optimisation de politiques paramétriques est un sujet d’intérêt récent en apprentissage par renforcement. L’algorithme PI est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l’estimation statistique. Dans cet article, nous considérons PI en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée par les probabilités pour mettre à jour itérativement des paramètres afin d’optimiser une fonction de coût. Nous comparons PI à d’autres membres de la même famille – la « méthode d’entropie croisée » et CMA-ES 1 – au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d’un nouvel algorithme que nous appelons PI-CMA pour « Path Integral Policy Improvement with Covariance Matrix Adaptation ». Le principal avantage de PI-CMA est qu’il détermine l’amplitude du bruit d’exploration automatiquement.
منابع مشابه
Classification structurée pour l'apprentissage par renforcement inverse
Résumé : Cette contribution traite du problème de l’apprentissage par imitation par le biais de l’apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu’un agent artificiel doit essayer de reproduire. L’ARI part du postulat que l’expert optimise avec succès une fonction de récompense ; le problème consiste à deviner cette fonction à partir de traces du ...
متن کاملStratégies d'échantillonnage pour l'apprentissage par renforcement batch
RÉSUMÉ. Cet article présente deux stratégies d’échantillonnage dans le contexte de l’apprentissage par renforcement en mode “batch”. La première stratégie repose sur l’idée que les expériences susceptibles de mener à une modification de la politique de décision courante sont particulièrement informatives. Etant donné a priori un algorithme d’inférence de politiques de décision ainsi qu’un modèl...
متن کاملFiltrage bayésien de la récompense
Résumé : Une large variété de schémas d’approximation de la fonction de valeur a été appliquée à l’apprentissage par renforcement. Cependant, les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d’autres domaines comme l’apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu’à présent. Cette contribution introduit un cadre de travail géné...
متن کاملMesure de similarité pondérée dans l'espace 2D: Application à la reconnaissance de visages
RÉSUMÉ. Cet article propose une nouvelle mesure de similarité pondérée basée sur des matrices pour la classification et la reconnaissance de visages. Le calcul de distances s’effectue entre deux matrices caractéristiques obtenues par deux méthodes bidimensionnelles à savoir l'Analyse en Composantes Principales (ACP2D) et l'Analyse Discriminante Linéaire (ADL2D). Les poids de pondération utilisé...
متن کاملApprentissage par Renforcement Inverse pour la Simulation d’Utilisateurs dans les Systèmes de Dialogue
Résumé : Les systèmes de dialogue sont des interfaces homme-machine qui utilisent le language naturel comme medium d’interaction. La simulation d’utilisateurs a pour objectif de simuler le comportement d’un utilisateur humain afin de générer artificiellement des dialogues. Cette étape est souvent essentielle dans la mesure où collecter et annoter des corpus de dialogues est un processus coûteux...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Revue d'Intelligence Artificielle
دوره 27 شماره
صفحات -
تاریخ انتشار 2013